我们研究Stackelberg游戏,其中一位校长反复与长寿,非洋流代理商进行互动,而不知道代理商的回报功能。尽管当代理商是近视,非侧心代理会带来额外的并发症时,在Stackelberg游戏中的学习是充分理解的。尤其是,非洋流代理可以从战略上选择当前劣等的行动,以误导校长的学习算法并在未来获得更好的结果。我们提供了一个通用框架,该框架可在存在近视剂的情况下降低非洋白酶的学习来优化强大的匪徒。通过设计和分析微型反应性匪徒算法,我们的还原从校长学习算法的统计效率中进行了差异,以与其在诱导接近最佳的响应中的有效性。我们将此框架应用于Stackelberg Security Games(SSG),需求曲线,战略分类和一般有限的Stackelberg游戏的价格。在每种情况下,我们都表征了近最佳响应中存在的错误的类型和影响,并为此类拼写错误开发了一种鲁棒性的学习算法。在此过程中,我们通过最先进的$ O(n^3)$从SSGS中提高了SSG中的学习复杂性,从通过发现此类游戏的基本结构属性。该结果除了对非洋流药物学习之外,还具有独立的兴趣。
translated by 谷歌翻译